技術問答
技術文章
iT 徵才
Tag
聊天室
2024 鐵人賽
登入/註冊
問答
文章
Tag
邦友
鐵人賽
搜尋
第 12 屆 iThome 鐵人賽
DAY
16
0
AI & Data
AWS 數據處理與分析實戰
系列 第
16
篇
Day 16 Glue ETL Job 教學 - Part 3
12th鐵人賽
eric88348
2020-09-30 08:53:33
1338 瀏覽
分享至
Job 的基礎設定完成後,接下來要設定資料源與輸出目標
這一步驟可以選擇要處理的資料源,選擇 Glue Data Catalog 中的 Table,這邊我們選擇 order_products_prior,就可以繼續往下
這個步驟我們選預設的 Change schema
這個步驟就要選擇要寫入的目標,這邊請先選擇 Create tables in your data target,之後可以看到另一個設定頁面
Data store:這邊可以選擇 S3 與 JDBC,JDBC 可以連結 Redshift、RDS、DynamoDB、etc 的資料庫,但這次我們先選擇 S3
Format:資料儲存的格式選擇 CSV
Compression type:檔案壓縮的部分先不進行壓縮
Target path:這部分可以填入要寫入的 S3 路徑,記得要與資料源的資料夾分開
欄位設定,這部分可以使用圖形化介面的方式設定儲存的欄位資訊,可以調整欄位順序、欄位的資料類型、增減欄位
設定完成後 Glue 會產生出基本的 PySpark 程式碼,這個程式碼可以直接將資料從資料源按照所設定的內容搬遷到 S3 或是以 JDBC 連線的資料庫中
留言
追蹤
檢舉
上一篇
Day 15 Glue ETL Job 教學 - Part 2
下一篇
Day 17 Glue ETL Job 教學 - Part 4
系列文
AWS 數據處理與分析實戰
共
30
篇
目錄
RSS系列文
訂閱系列文
14
人訂閱
26
Day 26 持續同步 S3 資料到 Redshift - Part 1
27
Day 27 持續同步 S3 資料到 Redshift - Part 2
28
Day 28 QuickSight 連接 Redshift - Part 1
29
Day 29 QuickSight 連接 Redshift - Part 2
30
Day 30 QuickSight 功能介紹
完整目錄
直播研討會
{{ item.subject }}
{{ item.channelVendor }}
{{ item.webinarstarted }}
|
{{ formatDate(item.duration) }}
直播中
立即報名
尚未有邦友留言
立即登入留言
iThome鐵人賽
參賽組數
1064
組
團體組數
40
組
累計文章數
22203
篇
完賽人數
602
人
看影片追技術
看更多
{{ item.subject }}
{{ item.channelVendor }}
|
{{ formatDate(item.duration) }}
直播中
熱門tag
看更多
15th鐵人賽
16th鐵人賽
13th鐵人賽
14th鐵人賽
12th鐵人賽
11th鐵人賽
鐵人賽
2019鐵人賽
javascript
2018鐵人賽
python
2017鐵人賽
windows
php
c#
windows server
linux
css
react
vue.js
熱門問題
筆電無法使用usb開機重裝系統
要怎知道LINE使用者的使用地址
防火牆互通問題
桌面的使用者文件圖標壞掉
Cisco 防火牆密碼確認正確,可是無法登入
函數問題
開啟Microsoft Edge 瀏覽器無法開啟網頁,出現錯誤訊息
一開機就自動鎖定帳戶
幫忙下載百度網盤
Audiosrv Windows Audio 高占用 CPU
熱門回答
防火牆互通問題
開啟Microsoft Edge 瀏覽器無法開啟網頁,出現錯誤訊息
if函數中的>&<&=是否可以使用儲存格代替
筆電無法使用usb開機重裝系統
Palo alto防火牆網頁解密問題?
熱門文章
[翻譯]使用AI工具寫程式碼時如何避免「AI幻覺」?
每日一篇學習筆記 直到我做完專題 :( [Day4]
每日一篇學習筆記 直到我做完專題 :( [Day5]
每日一篇學習筆記 直到我做完專題 :( [Day6]
每日一篇學習筆記 直到我做完專題 :( [Day7]
IT邦幫忙
×
標記使用者
輸入對方的帳號或暱稱
Loading
找不到結果。
標記
{{ result.label }}
{{ result.account }}